Loading...
机构名称:
¥ 2.0

我们从时间角度研究了加强学习(RL)政策的解释性,重点是与个人行动相关的未来结果的顺序。在RL中,值函数压缩有关跨多个传统和无限视野收集的奖励的信息,从而允许一种紧凑的知识表示形式。但是,这种压缩掩盖了顺序决策中固有的时间细节,这是对解释性的关键挑战。我们提出了时间政策构成(TPD),这是一种新颖的解释性方法,该方法从他们的预期未来结果(EFO)方面解释了单个RL行动。这些解释将代理的价值函数分解为EFO序列,每个时间都逐步发展到感兴趣的预测范围,从而揭示了何时发生特定结果的见解。我们利用固定性时间差异学习来设计一种用于学习最佳和次优的动作的EFO的非政策方法,从而实现了由EFO组成的对比解释。我们的实验表明,TPD产生了准确的解释,即(i)阐明该政策的未来战略和预期的轨迹,对给定的行动进行了预期的轨迹,以及(ii)提高对奖励组成的理解,促进对奖励功能的微调,以与人类的期望保持一致。

arxiv:2501.03902v1 [cs.lg] 2025年1月7日

arxiv:2501.03902v1 [cs.lg] 2025年1月7日PDF文件第1页

arxiv:2501.03902v1 [cs.lg] 2025年1月7日PDF文件第2页

arxiv:2501.03902v1 [cs.lg] 2025年1月7日PDF文件第3页

arxiv:2501.03902v1 [cs.lg] 2025年1月7日PDF文件第4页

arxiv:2501.03902v1 [cs.lg] 2025年1月7日PDF文件第5页

相关文件推荐

2025 年
¥1.0
2025 年
¥1.0